课程主页: https://www.davidsilver.uk/teaching/

这里回顾David silver 强化学习 Lecture 3的课程内容,这一讲简单介绍了通过动态规划进行控制。

介绍

DP的要求

动态规划用于解决满足以下条件的问题:

  • 最优子结构
  • 重叠子问题

而MDP同时满足以上两个特性。

通过DP规划
  • DP假设有MDP的完全信息
  • DP用于MDP的规划
  • 对于预测:
    • 输入:MDP $\langle\mathcal{S}, \mathcal{A}, \mathcal{P}, \mathcal{R}, \gamma\rangle$和策略$\pi$
    • 或:MRP $\left\langle\mathcal{S}, \mathcal{P}^{\pi}, \mathcal{R}^{\pi}, \gamma\right\rangle$
    • 输出:价值函数$v_\pi$
  • 对于控制:
    • 输入:MDP $\langle\mathcal{S}, \mathcal{A}, \mathcal{P}, \mathcal{R}, \gamma\rangle$
    • 输出:最有价值函数$v_\star$
    • 以及:最优策略$\pi_\star$

策略评估

迭代策略评估

利用贝尔曼方程可以计算价值函数:

注意上述情形对应同步更新(synchronous),与之对应的是异步更新(asynchronous)。

策略迭代

  • 给定策略$\pi$

    • 评估策略$\pi$

    • 关于$v_\pi$提升策略

上述过程被称为策略迭代,通常该策略会收敛到$\pi^\star$,上述过程可以用下图表示:

策略提升
  • 考虑确定性策略$a=\pi(s)$

  • 我们可以通过贪心的方式提升策略

  • 这一步就可以提升任何状态$s$的价值,

  • 因此也提升了价值函数,$V_{\pi^{\prime}}(s) \geq V_{\pi}(s)$

  • 如果上述提升停止,那么

  • 即贝尔曼最优方程得到满足

  • 因此对于所有$s\in \mathcal S$,我们有$v_{\pi}(s)=v_{*}(s)$

  • 即$\pi$是最优策略

价值迭代

最优准则

任何最优策略可以被划分为两个部分:

  • 最优的第一步动作$A_\star$
  • 后继状态$S’$的最优策略

定理(最优准则)

策略$\pi (a|s)$从状态$s$得到最优价值,$v_{\pi}(s)=v_{*}(s)$,当且仅当

  • 对于任何从$s$处可达的状态$s’$
  • $\pi$达到状态$s’$的最优价值,$v_{\pi}\left(s^{\prime}\right)=v_{*}\left(s^{\prime}\right)$
确定性价值迭代
  • 如果我们已知子问题的解$v_\star(s’)$

  • 那么解$v_\star(s)$可以通过一步向前看求解

价值迭代

DP扩展

之前介绍的DP都是同步DP,实际中还有异步DP,有如下三个思想实现异步DP:

  • In-place DP
  • Prioritised sweeping
  • Real-time DP
In-place DP
  • 同步值迭代使用的方法是:

  • In-place值迭代使用的方法是:

Prioritised sweeping
  • 使用贝尔曼误差来指导状态的选择,例如

  • 备份Bellman剩余误差最大的状态

  • 每次备份后更新受影响状态的Bellman误差

Real-time DP
  • 思想:只有状态和智能体相关

  • 使用智能体的经验指导状态的选择

  • 在每个时间戳$S_{t}, A_{t}, R_{t+1}$

  • 备份状态$S_t$

压缩映像

这部分讨论策略迭代和价值迭代的收敛性问题,首先定义范数:

  • 定义贝尔曼期望备份算子$T^\pi$,

  • 那么$T^\pi$是$\gamma$压缩的,

这里给出如下定理:

定理(压缩映像定理)

对于任意完备度量空间$\mathcal V$,考虑定义在其上的$\gamma$-压缩算子$T(v)$:

  • $T$收敛到唯一的固定点
  • 收敛速度和$\gamma$呈线性关系

上述定理说明贝尔曼期望算子$T^{\pi}$存在不动点,即$v_\pi$。